视觉变压器(VIT)在全球建模中脱颖而出,但由于其注意力机制的二次计算复杂性,在资源受限设备上面临部署挑战。为了解决这个问题,我们提出了语义意识的聚类视觉变压器(SAC-VIT),这是一种非著作范围,以提高VIT的计算效率。SAC-VIT分为两个阶段:早期出口(EE)和语义意识聚类(SAC)。在EE阶段,处理下采样的输入信息以提取全局语义信息并生成初始推理结果。如果这些结果不符合EE终止标准,则将这些信息聚集到目标和非目标令牌中。在SAC阶段,目标令牌被映射回原始图像,裁剪和嵌入。然后将这些目标令牌与从EE阶段重复使用的非目标令牌结合使用,并在每个集群中应用注意力机制。具有端到端优化的两阶段设计,可降低空间冗余,并实现计算效率,从而显着提高所有VIT性能。广泛的实验证明了SAC-VIT的功效,减少了DEIT的62%,并实现了1.98倍的吞吐量,而无需损害。
主要关键词
![arxiv:2503.00060v1 [cs.cv] 2025年2月27日PDF文件第1页](/bimg/9/90ede12eba6fe9622949c602902f7f5384558baa.webp)
![arxiv:2503.00060v1 [cs.cv] 2025年2月27日PDF文件第2页](/bimg/9/9989bb890fba3718db9c6fd6521bb89ddaf07b99.webp)
![arxiv:2503.00060v1 [cs.cv] 2025年2月27日PDF文件第3页](/bimg/8/81df52c9fccd74cc10103c23e2f0f7ce544cfc32.webp)
![arxiv:2503.00060v1 [cs.cv] 2025年2月27日PDF文件第4页](/bimg/7/7539d99f2e7e9ead3a878f5b853d7dcbc0f4b618.webp)
![arxiv:2503.00060v1 [cs.cv] 2025年2月27日PDF文件第5页](/bimg/1/10ead9716fe6367622b4f4bda1361e26922516e5.webp)
